根據前面作業做個檢討,決定新的題目需要有這些條件:
確定答案
。靜態的離散資料
就可以做為input來完成題目最好。尤其是第4點,對於沒什麼經驗的我們,如果第一個題目就要處理複雜的特徵萃取,實在太過辛苦。
相對於靜態的離散資料
,就是指動態的連續性資料
,或者是說有方向性的資料,在下面簡單舉兩個例子。
如果你想知道一個人的脈搏數是不是變快或變慢了甚至異常,那麼可能要收集一段時間的資料才得以做出判斷,或者是說才有意義,單單只看1~2秒內的脈搏數,很直觀的大家都知道沒意思。
所以問題來了,收集多久時間的脈搏數,做出的資料才是最恰當?假設1分鐘,1分鐘會不會太久?假設30秒?假設10秒?其實並沒有標準答案,這是一種需要參考連續的前後變化,才能得到的資料,而抓多少時間才合適,需要重複的實驗以及嘗試,光是研究如何讓這個參數轉換成適當的資料,工作上會曠日費時。
假設想知道客戶在某項商品購買的成長率,所謂的成長率,簡單來說是這次比起上次多了多少,然後多的部分除以上次的量,單位是百分比,關鍵字就是這次
和上次
。兩次購買的時間可能隔了很久,所以並非連續的資料一定是指時間
的連續,但從DB紀錄的資料卻可以知道有個次序的關係。
那問題又來了,或許有可能衍伸的很複雜,例如所謂連續的關係,如果客人上週買過,這週也買,大多人可能直覺兩個有關係,但是上次是一年前買的,那會覺得跟這次購買有關係嗎?可能就不一樣,最後又是回到、一個模糊圈定時間範圍的問題,更何況商品的品項,或者個人狀況,促銷價格狀況,可能都同時影響著購買意願,是不是非常麻煩呢?
光是資料的選定或處理,可能就碰頭灰頭土臉,因為這是商務的實作發展,怎麼挑怎麼處理只有自家最清楚,需要從頭自己來,不像kaggle的練習題目,資料已經是處理好的狀態。
最後我們討論出想嘗試的題目是:
「客人流量與訂單金額量的關係」,以此訓練出一個模型,輔助判斷是否客人有異常的操作,或者系統發生異常行為。例如來說,可能在某個流量數,系統收到的訂單總金額短時間暴增多出預期的好幾倍,或者相反狀況,流量穩定的狀態之下,為何金額銳減,是不是有人因為系統問題購買不了某些商品呢?